Loading...
机构名称:
¥ 2.0

大规模3D生成模型需要大量的计算资源,但在高分辨率下捕获细节和复杂的几何形状方面常常缺乏。我们将这种限制归因于当前表示的效率低下,这缺乏有效建模生成模型所需的紧凑性。为了解决这个问题,我们介绍了一种名为Wa velet la Tent扩散或WALA的新方法,该方法将3D形状编码为基于小波的紧凑型潜在编码。具体而言,我们将256 3签名的距离场压缩到12 3×4潜在网格中,达到了令人印象深刻的2,427×压缩比,细节的损失最小。这种高水平的压缩使我们的方法可以有效地训练大规模生成网络而不增加推理时间。我们的模型,无论是有条件还是无条件的,都包含大约十亿个参数,并在256 3分辨率下可成功地生成高质量的3D形状。此外,尽管模型的规模,但Wala提供了快速推断,根据条件,在两到四秒钟内产生形状。我们证明了多个数据集的最新能力,并有显着提高的发电质量,多样性和计算效率。我们为我们的代码开放代码,据我们所知,我们跨不同方式发布了最大的预估计的3D生成模型:https://github.com/autodeskailab/wala。

arxiv:2411.08017v1 [cs.cv] 2024年11月12日

arxiv:2411.08017v1 [cs.cv] 2024年11月12日PDF文件第1页

arxiv:2411.08017v1 [cs.cv] 2024年11月12日PDF文件第2页

arxiv:2411.08017v1 [cs.cv] 2024年11月12日PDF文件第3页

arxiv:2411.08017v1 [cs.cv] 2024年11月12日PDF文件第4页

arxiv:2411.08017v1 [cs.cv] 2024年11月12日PDF文件第5页

相关文件推荐

1900 年
¥7.0
2024 年
¥1.0